查看原文
其他

学术活动|曾安 复杂网络:研究兴趣频繁变化对科学家的发文和被引有什么影响

图书情报知识 图书情报知识 2022-06-09


供稿|司湘云


科学家科研生涯中研究兴趣如何迁移?不同年代的科学家研究兴趣迁移行为是否有变化?科学家研究兴趣迁移与其影响力有何关系?“面向图情档研究问题的研究方法系列讲座(第一期)”第八讲特邀北京师范大学曾安副教授进行题为“复杂网咯:科学家的研究兴趣迁移研究”的报告。曾安副教授详细介绍了团队最新发表在Nature Communications的研究成果,包括研究背景、研究方法、讨论与结论等。



1 研究背景

科学学(science of science)是一个理解、量化和预测科学研究以及科学研究产出的研究领域。科学文献数量呈指数式增长、且数据质量颇高,数字出版时代为研究科学研究活动、科研产出与回报等提供了丰富的数据支撑,例如采用复杂网络、人类行为动力学等方法挖掘科研数据中的复杂性。





在科学家职业生涯中科研创造力演化的相关研究方面,Roberta等人(2016)以被引量表征科学家研究论文的影响力,发现科学家最具影响力的研究成果随机分布在该科学家的科研产出序列中;Lu等人(2018)探究了科学家Top-n最具影响力研究成果的发表时间,发现科学家科研生涯可能存在研究鼎盛期(hot streak),在该时期的研究表现会优于其他时期。由此引发思考:科学家科研产出在主题上具有关联性,而不仅仅是一个时间序列,即科学家科研产出序列更直观的表现是科学家研究兴趣的变化,那么科学家科研生涯中研究兴趣如何迁移?科学家研究兴趣的迁移如何影响其职业生涯?





特别地,如何刻画和测量科学家的研究兴趣?例如可以使用文章关键词、文章所属领域分类号等信息标识科学家研究主题,然而存在关键词标记自由度大、学科领域代码延续性和普遍性不足等问题,因此这些方法无法适用于全部的学科领域。是否有更通用的测量科学家研究兴趣的方法?


2 研究方法

社团结构分析技术发展成熟,目前多涉及应用层面的研究。社团指网络中链接紧密的节点集合,社团内部链接紧密,而社团之间链接稀疏,通常使用模块化函数量化社团划分结果。模块化函数(目标函数)如下图,该函数量化社团中节点链接紧密程度与期望紧密程度的差值,Q越大,说明社团划分结果越好。其中,m指网络中的连边数量,A表示网络中节点的邻接矩阵,ki表示节点i的度,δ函数表示若节点i和j被划分为一个社团则该函数取值1。





目标函数(模块化函数)的部分优化算法如图所示。





本研究采集美国物理学会(American Physical Society, APS)开放的1893-2010年旗下期刊出版的48万余篇文献数据,分析发文量逾50篇的科学家和发文量逾20篇的科学家科研生涯研究兴趣变化与迁移。具体地,基于文献共引关系刻画科学家科研产出间的主题联系,为每位科学家构建共引网络,进而使用社团结构分析技术探测网络社团结构,社团即代表该科学家的研究兴趣。最终使用不同颜色标记科学家科研产出的主题,即可从科学家科研产出序列图中直观地显示科学家研究兴趣的变化与迁移(如下图d子图)。





3 讨论与结论

本研究基于共引关系构建科学家科研产出网络,使用社团结构分析技术探测网络社团结构。经验证,该网络具有清晰显著的社团结构,且同一社团的文章大概率地具有相同的PACS代码(物理学领域文章分类号),表明每一个聚类而成的社团可以表示一个研究主题。此外,由于社团探测结果可能包含孤立节点或小规模社团,且一半的科学家top3社团已经覆盖了其70%的研究成果,因此本文选择节点数大于2的社团作为科学家的研究兴趣进行分析。研究结果与结论如下。





(1)科学家研究兴趣迁移特征

科学家科研产出共引网络中主要社团数量分布较窄(下图c子图),科学家科研生涯研究兴趣通常在5个左右。





进一步探究科学家科研生涯每年涉足的研究兴趣数量的变化特征(下图a子图),发现:在科研生涯早期,科学家倾向于关注少量的研究兴趣;研究兴趣数量随科研年限的增长而增长,至20年左右时达到顶峰;之后研究兴趣的数量逐渐下降。然而从概率上讲,科学家每年的研究兴趣数量与其年发文量有关。因此本研究使用指标“领域迁移概率”(switching probability),以移除年发文量的影响。领域迁移概率指科学家科研产出中相邻两篇文章属于不同研究领域的概率。如下图b子图所示,结论与a子图一致。








(2)不同年代科学家研究领域迁移特征

科学一直在进步,那么过去的100年,不同年代科学家的研究领域迁移特征是否发生变化?本研究对比分析了不同年代科学家前y年(y=10,20,30)职业生涯的研究兴趣变化特征(下图a子图和b子图)。研究发现:随着科学的发展,不同年代科学家关注的研究领域数量基本不变(a子图)。进一步分析不同年代科学家的兴趣迁移概率变化(b子图),发现尽管研究兴趣数量变化不大,但是科学家研究兴趣迁移更加频繁。具体地,早期的科学家倾向于持续关注一个研究主题,而当今的科学家更偏好同时涉足多个研究领域。








(3)研究兴趣转移与科研表现的关系

科学家研究兴趣的频繁变化是否有助于其科研表现?本研究选择发文量和篇均被引量表征科学家的科研表现,选择发文量前10%的科学家和篇均被引量前10%的科学家的研究兴趣转移概率曲线与整体科学家的研究兴趣转移概率曲线进行对比分析(下图a子图和b子图),并使用皮尔逊系数验证结果的显著性(下图c子图和d子图)。


研究发现:在科研生涯早期(12年之前),科学家的高产与低领域迁移概率相关,而在之后的科研生涯阶段,高产与高领域迁移概率相关;在科研生涯的全部阶段,高篇均被引量均与低领域迁移概率相关。








(4)科学家研究兴趣迁移的仿真实验

科学家的科研活动可以模拟为科学家在知识空间中的探索发现过程,科学家发表一项研究成果即为激活了知识空间中的一个节点,一位科学家在知识空间中激活的子网络就形成了记录该科学家研究成果及其关系的个人网络。随机游走模型(random walk)可用来模拟节点激活过程,模型中假设科学家随机激活上一个已激活节点的邻居节点。


本研究将知识空间定义为基于共引关系形成的文献网络图,使用基于Exploitation-Exploration model(EEM)的随机游走模型模拟科学家研究兴趣迁移模式。EEM常用于探讨自适应系统中的创新问题,本研究中Exploitation过程指科学家以概率p随机地选择一个已激活的节点重新开始,Exploration过程指科学家以概率q随机地激活一个步长为2的邻居节点(如下图 )。





研究发现p=0.6,q=0.2时,仿真得出的曲线与实际较契合(见下图)。





由此也可进一步估算每位科学家的p值和q值,分析不同科学家的科研模式。





此外,本研究进行了稳健性检验,例如:基于共引参考文献数量构建有权重的科学家科研产出网络、调整模块度函数的参数、使用计算机科学领域的数据集等,研究结果与上述一致。本研究的研究结论总结如下:





参与直播活动的近2000名观众踊跃提问,问题主要包括:社团划分算法、社团主题标签的确定、社团划分结果的验证、揭示科学家研究兴趣的其他方法、EEM机制、如何开展跨学科的研究等。曾安副教授一一详细解答,并分享了本项研究的一些工作细节。


论文出处Zeng, A., Shen, Z., Zhou, J., etl. (2019). Increasing trend of scientists to switch between topics. Nature communications, 10, 3439. https://doi.org/10.1038/s41467-019-11401-8



讲座回放入口:


讲座版权归主办方所有,仅供个人学习,严禁任何形式的录制、传播。一经发现将依法保留追究权。

制版编辑 姚志臻

END






学术活动 | 第七十三期 史冬波 因果推断的反事实框架: 如何选择合适的方法?

学术活动 | 第七十二期 党建伟 因果推断之工具变量:标准必要专利许可条款有哪些决定因素?

学术活动|第七十一期 讲座纪要 姜婷婷 关键事件日记法:视觉刺激物特征如何影响信息偶遇行为?

学术活动 | 第七十期 步一 描述性推断之相关与回归:科学合作有哪些影响因素?

学术活动 | 第六十九期 刘晓钟 数据/图挖掘:如何避免身处信息孤岛中?

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存